AI
인공지능기초_03_생성 모델과 데이터 윤리
작성자 : Heehyeon Yoo|2025-12-01
# AI# GenerativeModel# PromptEngineering# Ethics# Copyright
1. 개요
생성 모델은 기존 데이터의 분포를 학습하여, 데이터를 단순히 분류하는 것을 넘어 세상에 존재하지 않는 새로운 데이터를 생성(Generation)하는 모델이다.
- 대표 사례: 미드저니(Midjourney)가 생성한 '스페이스 오페라 극장(Théâtre D'opéra Spatial)'이 미술 대회에서 우승하며 인간 고유의 영역으로 여겨졌던 창작 분야에 진입했다.
2. 생성 모델의 주요 특징(Characteristics)
2.1. 거대 모델(Large Scale Model)
생성 모델은 기존 모델 대비 압도적으로 많은 파라미터(Parameter)를 보유한다.
- 파라미터 증가: 2020년 이전 10억 개 내외였던 파라미터는 2021년 GPT-3에 이르러 1,750억 개로 약 17.5배 급증했다.
2.2. 대규모 데이터셋(Massive Dataset)
모델 학습을 위해 천문학적인 양의 데이터가 투입된다.
- DALL-E: 약 2억 5천만 개의 이미지-텍스트 쌍(Image-Text Pair) 데이터로 학습.
- ChatGPT: 약 3,000억 개의 자연어 토큰(Token) 학습.
2.3. 프롬프트 엔지니어링(Prompt Engineering)
AI에게 원하는 결과물을 얻기 위해 명령어(Prompt)를 최적화하는 기술이다.
- 역할: "검은 베레모를 쓴 시바견"과 같이 구체적인 지시를 내리거나, "반 고흐 스타일(Van Gogh Style)"과 같은 화풍을 지정하여 결과물의 품질을 제어한다.
- CoT(Chain of Thought): "단계별로 생각해봐(Let's think step by step)"와 같은 프롬프트를 추가했을 때 추론 능력이 비약적으로 향상되는 현상이 보고되었다.
3. 주요 응용 사례
3.1. 이미지 생성(Image Generation)
- DALL-E, Midjourney: 텍스트 설명을 입력받아 고품질 이미지를 생성한다.
- NovelAI: GPT-3.5 기반 소설 작성 서비스에서 시작하여, 'Danbooru' 태그 기반의 애니메이션 캐릭터 생성 기능으로 확장했다. 이미지 품질 향상(Quality Up) 및 채색(Colorization) 기능을 제공한다.
3.2. 텍스트 생성(Text Generation)
- ChatGPT: 자연어 질의응답, 코드 작성, 문서 요약 등 범용적인 언어 작업 수행.
4. 윤리적 쟁점(Ethical Issues)
4.1. 저작권(Copyright) 및 데이터 세탁
- 데이터 출처 문제: NovelAI 등이 학습에 사용한 'Danbooru' 사이트는 불법 전재된 이미지가 다수 포함된 곳이다. 원작자의 동의 없이 학습된 데이터로 원작자의 화풍(Style)을 모방한 결과물이 양산되는 문제가 발생한다.
- 사례: 故 김정기 작가의 화풍을 학습한 AI 모델이 작가 사망 직후 공개되어 논란이 되었다.
4.2. 책임 소재의 모호성
AI가 생성한 결과물로 인한 문제 발생 시 책임 주체가 불분명하다.
- 개발사 vs 사용자: AI 도구 제공자(개발사), 학습 데이터 제공자(개발자), 프롬프트 입력자(사용자) 간의 책임 공방이 존재한다.
- 저작권 인정 여부: 현행법상 AI가 단독 생성한 저작물에 대해서는 저작권을 인정하지 않는 추세이다.(예: AI 작곡가 '이봄'의 저작권료 지급 중단).
4.3. 결론
생성 모델의 발전 속도는 법적, 제도적 정비 속도를 앞지르고 있다. 데이터 윤리(Data Ethics)와 AI 윤리(AI Ethics)에 대한 사회적 합의가 시급하다.